تطبیق گوینده در بازشناسی گفتار پیوسته براساس تخمین map مبتنی بر تبدیل mllr
Authors
abstract
روشهای مختلفی برای تطبیق گوینده در سیستمهای بازشناسی گفتار معرفی گردیده اند. در برخی روشها نظیر تخمین map تنها مدلهایی که داده آموزشی متناظرشان موجود باشد تازه سازی می شوند و برای بهبود قابل توجه دقت بازشناسی، داده آموزشی نسبتاً زیادی مورد نیاز است. در برخی دیگر نظیر mllr که تعدادی تبدیلات عمومی بر روی خوشه های مدلها اعمال می شود، برای دادگان کم آموزشی نتایج مطلوبی حاصل می شود، اما با افزایش دادگان، کارایی به حد اشباع می رسد. در این مقاله روش جدیدی مطرح می شود که از مزایای هر دو روش فوق برای دسترسی به کیفیت بالاتر بهره می برد. در این روش مدلهایی که داده آموزشی آنها موجود است به کمک تخمین map آموزش می بینند و برای مدلهایی که داده آموزشی (کافی) ندارند، با استفاده از روش mllr مقادیر پیشینه مناسب برای تخمین map تأمین می شود. این روش، در عمل، بر روی یک سیستم آموزش دیده براساس دادگان فارس دات به نتایج بهتری نسبت به هر یک از دو روش map و mllr دست یافته است.
similar resources
رتبهبندی واجهای گفتار فارسی از نظر کارآیی در بازشناسی گوینده
در این مقاله، کارآیی واجهای گفتار فارسی از نظر بازشناسی گوینده مورد مطالعه و پژوهش قرار گرفته و با توجه به میزان کارآییها، رتبهبندی واجها صورت گرفتهاند. جهت برآورد کارآیی واجها، از یک معیاری که بهصورت نسب « فاصلة بینگویندهای» واجها به « فاصلة در گویندهای» تعریف شده است و ما آن را « نسبت تأثیرپذیری گوینده » نامیدهایم، استفاده شده است. آزمایشها و محاسبات لازم برای کلیه واجهای گفتار...
full textاستفاده از تکنیک خوشه بندی گوینده در تطبیق گوینده در سیستم بازشناسی گفتار
بطور کلی در بازشناسی گفتار، مدل وابسته به گوینده (sd) عملکرد بهتری نسبت به مدل ناوابسته به گوینده (si) در تشخیص گفتار یک گوینده خاص دارد. یکی از روش های عملی تر برای دستیابی به عملکردی نزدیک به سیستم sd استفاده از تکنیک های تطبیق گوینده است. خوشه بندی گوینده یکی از تکنیک های اصلی در تطبیق گوینده است. روش خوشه بندی می تواند به دلیل راحتی ترکیب با تکنیک های رایج تطبیق نظیر map و mllr مورد استفاد...
15 صفحه اولشبکه عصبی پیچشی با پنجرههای قابل تطبیق برای بازشناسی گفتار
Although, speech recognition systems are widely used and their accuracies are continuously increased, there is a considerable performance gap between their accuracies and human recognition ability. This is partially due to high speaker variations in speech signal. Deep neural networks are among the best tools for acoustic modeling. Recently, using hybrid deep neural network and hidden Markov mo...
full textاعمال تبدیل بر ویژگیها با استفاده از خطای کلاسبندی کمینه مبتنی بر هسته برای بازشناسی الگو و گفتار
As
full textبازشناسی گوینده مستقل از متن براساس گفتار تلفنی توسط شبکه های عصبی
در این پایان نامه سیستمی به منظور بازشناسی هویت گوینده مستقل از متن براساس گفتار تلفنی و به کمک شبکه های عصبی طراحی و پیاده سازی شده است . جهت این کار از دو دادگان گفتار زبان فارسی farsdat و tfarsdat استفاده شده است .
15 صفحه اولمقاوم سازی سیستم بازشناسی گفتار پیوسته
دقت سیستم¬های بازشناسی گفتار در محیط¬های آزمایشگاهی و کنترل شده به میزان قابل قبولی افزایش یافته و امروزه شاهد استفاده از این سیستم¬ها در محیط¬های واقعی هستیم. با این حال، کارایی این سیستم¬ها در حضور نویز به دلیل عدم تطابق بین شرایط و محیط آموزشی و آزمون به شدت افت می¬کند. علاوه بر این، تنوع مشخصه¬های گفتاری گویندگان نیز بر کارایی این سیستم¬ها تاثیرگذار است. در سال¬های اخیر، عمده پژوهش¬های صورت...
My Resources
Save resource for easier access later
Journal title:
روش های عددی در مهندسی (استقلال)جلد ۲۳، شماره ۲، صفحات ۳۹-۵۰
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023